Chapitre 10 Régression multiple

La régression linéaire simple développée au chapitre 8 permet d'établir un lien entre une variable endogène Y et une variable exogène x. Parfois une étude n'a pour but que de démontrer que l'existence d'un tel lien -- la possibilité de prédire Y à partir de x étant d'un intérêt secondaire. Mais si la prédiction de Y est l'objectif principal de la recherche, on trouvera en général (sauf dans certaines sciences physiques) que les prédictions basées sur une seule variable exogènes sont peu précises.

Supposons, par exemple, qu'on souhaite prédire le prix Y d'une maisonnouvellement mise en vente.  Il faudra au moins connaître le nombre de chambres, x.  Il est évident qu'il y a une relation entre Y et x, et des données historiques permettront de le démontrer (l’hypothèse Ho que β1 = 0 sera rejetée) et d'exprimer la relation au moyen d’une régression simple.

Mais cela ne veut pas dire que les prédictions seront bonnes : rejeter Ho signifie simplement que si on connaît la valeur de x on a avantage à l'utiliser. Les prédictions ne seront pas très précises parce que pour un x fixe, Y peut varier énormément sous l’effet des nombreux autres facteurs qui contribuent au prix: la superficie, le quartier, l'âge, le nombre de salles de bain, etc.  Une prédiction basée sur ces informations promet d'être plus précise qu'une prédiction basée sur le seul nombre de chambres à coucher.


C’est ce que la régression multiple permet de faire.  Elle permet de définir une fonction linéaire qui exprime Y en fonction de plusieurs variables. 

Mais une régression multiple joue un rôle important du fait qu'elle permet--jusqu'à un certain point--de s'assurer qu'une relation (entre Y et une variable exogène x) n'est pas le fruit de facteurs externes qui causent une dépendance artificielle. Un seul exemple pour l'instant. Une étude sur plusieurs villes américaines a montré que le taux Y de cancers de poumons est lié au degré de pollution de l'air de la ville: un taux plus élevé dans les villes les plus polluées. Mais on a constaté aussi que les villes les plus polluées sont celles où la population est plus âgée. Est-ce possible que c'est l'âge et non la pollution qui cause le cancer? La question n'est pas simple et les analyses à faire pour y répondre, mais ces analyses font nécessairement intervenir la régression multiple.